|
|
|
|
|
|
معرفی موتورهای جستجوگر
و اساس کارآنها
|
|
|
استاد راهنما : جناب آقای انتظاری
تهیه و تنظیم توسط: نادر لطفی و مهدی اسماعیلی
دانشگاه جامع علمی کاربردی
سازمان مدیـریت صنعتی تبریز
اردیبهشت 1394
|
|
چکیـــده
دنیای اینترنت هر روز تعداد مراجعان بیشتری را به سوی خود می کشاند که در این میان وجود موتور های جستجوگرکمک شایانی به کاربران میکند؛ در این راستا معرفی فعالیت موتور جستجو و مفید بودن آن در عرصه اینترنت که حجم وسیعی از اطلاعات را در بر میگیرد خالی از لطف نیست . این مقاله ضمن آشنایی از اساس کار موتورهای جستجو به معرفی چند نوع از این جستجوگرها می پردازیم .
مقدمه
تعداد این موتورهای جستجوگر محدود نبوده که این امر موجب شده است تا رقابت بین آن ها برای جذب کاربران هر روز شدیدتر شود . با وجود آن که یاهو و گوگل کمتر از یک دهه است که فعالیت اصلی شان را بر روی موتور های جستجو متمرکز کرده اند، اما سابقه ی موتور های جستجوگر به حدود 13 سال قبل باز می گردد؛ کمی پس از آن که استفاده ی عمومی از اینترنت در آمریکا آغاز شد.
شیوه ی یافتن صفحات اینترنتی با کلید واژه ها توسط موتور جستجو ، مبتنی بر جست و جوهای دائمی صفحات وب توسط نرم افزاری به نام "اسپایدر" است که به وبگردی دائمی مشغول است؛ اسپایدر همچنین به روز بودن مطالب و ذخیره آن ها را نیز برعهده دارد .
در مرحله ی بعدی، نرم افزار دیگری به نام ” کراولر" تصمیم می گیرد که چه صفحاتی را در سایت موردنظر در اولویت جستجو قرار دهد . در مرحله ی سوم، صفحات بر مبنای اطلاعات جمع آوری، پردازش و بایگانی می شوند و سپس این اطلاعات فشرده و در پایگاه داده ها ذخیره می شوند و آخرین مرحله مربوط به ”سیستم رتبه بندی " است و همزمان با تقاضای کاربر، تمام صفحات مرتبط را مشخص و براساس رتبه بندی تنظیم و در کمتر از یک ثانیه آن را در اختیار کاربر قرار می دهد .
تعریف موتور جستجو
موتور جستجو ، جویشگریا جستجوگر به طور عمومی به برنامهای گفته میشود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو میکند. به عبارتی یک جستجوگر وب کلمات کلیدی موجود در فایلها و سندهای وب جهانی، گروههای خبری و غیره را جستجو میکند.
انواع جستجوگرها در اینترنت
موتورهای جستجوی اینترنتی به چهار دسته کلی تقسيم میشوند :
1 - موتورهای جستجوی پيمايشی یا خودکار
2 - موتورهای جستجوی فهرست های دستی غیر خودکار
3 - موتورهای جستجو گر ترکیبی
4 - گونه اي جديد از موتورهاي جستجو تحت عنوان"ابر جستجوگر"
موتورهای جستجوی خودکار Crawler-Based Search Engines
موتورهای جستجوگر خودکار مانند گوگل ، فهرست خود را بصورت خودکار تشکيل میدهند. آنها وب را پيمايش کرده، اطلاعاتی را ذخیره میکنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که میخواهند جستجو میکنند. اگر شما در صفحه وب خود تغييراتی را اعمال نماييد، موتورهای جستجوی پيمايشی آنها را به طور خودکار میيابند و سپس اين تغييرات در فهرستها اعمال خواهد شد. عنوان، متن و ديگر عناصر صفحه، همگی در این فهرست قرار خواهند گرفت. وجه مشخصه این گروه از جستجوگرها وجود نرم افزار موسوم به SPIDER در آنهاست که وظیفه این شبه نرم افزار در ادامه توضیح داده خواهد شد .
موتورهای جستجوی دستی Human-Powered Directories
فهرستهای دست نویس شده ، وابسته به کاربرانی است که آن را تکميل میکنند. به عنوان مثال شما صفحه مورد نظر را به همراه توضيحی كوتاه در فهرست یا پانویس ها ثبت میکنيد با این کار عمل جستجو فقط بر روی توضيحات ثبت شده صورت میگيرد .
موتورهای جستجوی ترکیبی
به موتورهايی گفته میشود که هر دو حالت را در کنار هم نمايش میدهند. مثلاً موتور جستجوی ام.اس.ان (MSN) بيشتر نتايج حاصل از فهرستهای تکميلدستی را نشان میدهد اما در کنار آن نيم نگاهی هم به نتايج حاصل از جستجوی پيمايشی دارد.
ابر جستجوگرها
اين گونه جديد از موتورهای جستجوگر كه قدمت چندانی نيز ندارند، بصورت همزمان از چندین موتورجستجوگر برای کاوش در شبکه ، برای کلید واژه مورد نظر استفاده می کنند . بدين معنی كه اين موتور عبارت مورد نظر شما را در چندين موتورجستجوگر ،ِ جستجو کرده و نتايج آنها را با هم تركيب كرده و يك نتيجه كلی به شما ارائه میدهد. بهعنوان مثال موتورجستجوگر ( داگ پايل ) از نتايج حاصل از موتورهای Google - Yahoo - MSN و ASK استفاده كرده و نتيجه حاصله را در اختیار کاربر قرار می دهد.
یک موتور جستجو چگونه کار میکند ؟
طرز کار موتور جستجوگر به طور خلاصه بدین گونه است که ابتدا یک آدرس وب را می یابد، آن را دنبال می کند و به صفحه ای می رسد. محتوای آن صفحه را می خواند و پارامترهای آن را مشخص می کند. به عنوان مثال تعداد کلمات متن آن صفحه، حجم و تاریخ به روز رسانی آن، بعضی از پارامترهای آن صفحه است. سپس پارامترهای تعیین شده را به همراه آدرس آن صفحه ، به بایگانی موتور جستجوگر ارسال می کند و این اطلاعات در آنجا پس از فشرده سازی، ذخیره می گردد.
حال اگر کاربری کلماتی را جستجو کند، موتور جستجوگر در پایگاه داده ای که قبلا تشکیل داده است ابتدا تمام صفحات مرتبط با موضوع جستجو شده را می یابد و سپس مرتبط ترین صفحه را به عنوان اولین نتیجه جستجو و بقیه صفحات را بر اساس میزان ارتباط بعد از آن در اختیار کاربر میگذارد . به عبارت دیگر اگر تعداد نتایج جستجو 1000 مورد باشد، وب سایت رده اول ،،،، مرتبط ترین و سایت رده 1000 کم ارتباط ترین سایت به موضوع جستجو شده می باشد. بسیاری از خود می پرسند كه چگونه ممکن است گوگل در كمتر از یك ثانیه تمام سایت های وب را در سراسر جهان بگردد و میلیون ها صفحه را در نتایج جستجوی خود نشان دهد ؟ اساس کار در این است که وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو نشان داده می شود، كاربران درکسری از ثانیه نتیجه كار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا پایگاه داده اش را آماده كرده است و این گونه نیست كه درست در همان لحظه جستجو، تمام وب را بگردد.
هیچ موتور جستجوگر توانایی انجام این كار را ندارد. همه آنها در زمان پاسخ گویی به جستجوهای كاربران، تنها در پایگاه داده ای كه در اختیار دارند به جستجو می پردازند و نه در وب! موتور جستجوگر به كمك بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا" جمع آوری، تجزیه و تحلیل می كند، آنرا در پایگاه داده اش ذخیره می نماید و به هنگام درخواست کاربر ، تنها در همین پایگاه به جستجو می پردازد.
بخش های مجزای یك موتور جستجوگر عبارتند از:
Spider عنکبوت
Crawler یا خزنده
Indexer یا بایگانی کننده
Database یا پایگاه داده
Ranker یا سیستم رتبه بندی
اسپایدر ، نرم افزاری است كه كار جمع آوری اطلاعات مورد نیاز یك موتور جستجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، لینکها را دنبال می کند، اطلاعات مورد نیاز را جمع آوری می كند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد. كار یك اسپایدر، بسیار شبیه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازدید می كنند، اسپایدر هم درست این كار را انجام می دهد با این تفاوت كه اسپایدر كدهای HTML صفحات را می بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را ...
كراولر، نرم افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می كند. کراولر مشخص می كند که اسپایدر كدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد كه كدام یك از لینك های صفحه ای كه اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضی ها را دنبال كند و یا هیچ كدام را دنبال نكند.
کراولر، ممكن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند.
ایندکسر
تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است كه مشخص می شود اطلاعات از كدام صفحه ارسال شده است، چه حجمی دارد، كلمات موجود در آن كدامند، کلمات چندبار تكرار شده اند، كلمات در كجای صفحه قرار دارند و ... .
دیتابیس
تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، كدگذاری و ذخیره می شود. همچنین داده ها قبل از آنكه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم كمی از پایگاه داده را اشغال كنند. یك موتور جستجوگر باید پایگاه داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یك موتور جستجوگر ، برای آن امتیاز محسوب می گردد. یكی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
رانکر
بعد از آنكه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات كاربران است. كاربران چند كلمه را در(Search Box) یا همان جعبه جستجو وارد می كنند و سپس با فشردن Enter منتظر پــاسخ می مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده كه به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا كمترین ارتباط مرتب می كند و به عنوان نتایج جستجو به كاربر نمایش می دهد. حتی اگر موتور جستجوگر بهترین و كامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه كند، یك موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یك موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد.
معرفی چند نمونه از موتورهای جستجوگر
موتور جستجوگر گوگل
گوگل بزرگترين موتور جستجوي جهان است که روزانه بيش از ميلياردها جستجو در آن صورت گرفته و اطلاعات بسياري را منتقل ميکند. اما يکي از بزرگترين نگرانيها و انتقادات صورت گرفته نسبت به گوگل عدم وفاداري به حفظ حريم خصوصي افراد بوده است. اسناد و مدارک زيادي مبني بر همکاري گوگل با سازمانهاي جاسوسي آمريکا وجود دارد.
گوگل پروژهاي تحقیقاتی بود که در ژانویه ۱۹۹۶ توسط دو دانشجوی دکترا در دانشگاه اِستنفورد کالیفرنیا رقم خورد. این شرکت خصوصی در ماه ژون ۱۹۹۹ / تیر ۱۳۷۹ رسما با سرمایه تاسیس ۲۵ میلیون دلار معرفی شد. گوگل به طور تخمینی دارای بیش از یک میلیون سرور در سراسر جهان است و روزانه بیش از یک میلیارد درخواست جستجو در آن صورت ميگيرد.
جستجوگر گوگل یک موتور در وب است که تحت مالکیت گوگل قرار دارد. گوگل از راه این وبگاه روزانه صدها میلیون دلار دریافت میکند. این موتور جستجو بیشترین بازدیدکننده در بین کاربران را دارد و روزانه چند صد میلیون بار به طرق مختلف استفاده میشود. مهمترین هدف گوگل یافتن متن مورد نظر در میان صفحات وب است. اما انواع دیگر اطلاعات به وسیله قسمتهای دیگر آن مثل جستجوي تصاوير ، ویدئو ، نقشه و ... نیز مورد جستجو قرار میگیرند.
موتور جستجوی گوگل علاوه بر جستجوی وبسایتها قابلیتهای ویژهای نیز دارد، شاید بسیاری از کاربران تنها وظیفهی گوگل را نمایش نتایج جستجو شده بدانند اما در این موتور جستجو ویژگیهای نهفته و کاربردی زیادی مانند ماشین حساب ، مبدل واحد ها ، تایمر ، مقایسه کالری میوه ها ، آخرین زمین لرزه ها ، آدرس آی پی کنونی شخص ، آب و هوا و ... قرار دارد.
جستجوگر یاهو
شرکت یاهو یک شرکت آمریکایی چند ملیتی است که در زمینه اینترنت و نرمافزار فعالیت دارد و دفتر مرکزی آن در کالیفرنیای ایالات متحده آمریکا است. یاهو یکی از بهترین سایتهای اینترنتی است که امکانات زیادی مانند موتور جستجوی یاهو ، ایمیل ، یاهو مسنجر، اخبار یاهو، تبلیغات، نقشههای آنلاین، اشتراک گذاری ویدئو و عکس، ورزشهای فانتزی و شبکههای اجتماعی را در اختیار کاربران اینترنت گذاشته است.
یاهو توسط جری یانگ و دیوید فیلو در ژانویه سال ۱۹۹۴ تاسیس شد و در تاریخ ۱ مارس ۱۹۹۵، بین مردم شناخته شد.
یاهو در سراسر دهه ۱۹۹۰ به سرعت بزرگ شده و به محبوب ترین جستجوگر اینترنت تبدیل شد و رشد فوقالعادهای داشت. در حال حاظر جستجوگر یاهو ، دومین جستجوگر برتر اینترنت پس از گوگل است . یاهو سالهای زیادی برترین جستجوگر اینترنت بود که با آمدن گوگل، این عنوان را به گوگل تقدیم کرد.
اَسک ASK
سرویس جستجوی اَسک در سال ۱۹۹۵ راه اندازی شد. این سرویس تا قبل از ورود گوگل به عرصه ی موتور های جستجو، یکی از پرطرفدار ترین سرویس های جستجو در جهان بود. كار كردن با سرویس جدید اسك بسیار ساده است . اَسك چهارمین سایت محبوب جستجو بعد از گوگل ، یاهو و بینگ در ایالات متحده آمریكا محسوب می شود .
جستجو گر بینگ BING
بینگ یک موتور جستجو متعلق به شرکت مایکروسافت است که قبلا با نام هایلایو سرچ، ویندوز لایو سرچ و اماسان سرچ شناخته میشد . استیو بالمر در ۲۸ مِی ۲۰۰۹ در کنفرانسی در سانفرانسیسکوی آمریکا از بینگ پردهبرداری نمود و این جستجوگر در ۳ ژوئن همان سال بهطور کامل در دسترس قرار گرفت.
Bing با ایده جدیدی پا به عرصه رقابت با موتورهای جستجوی بزرگی چون گوگل و یاهو گذاشته و مایکروسافت امیدوار است تا با ایجاد قابلیتهای جدید یک بار دیگر شانس خود را در رقابت با گوگل و یاهو امتحان نماید . جستجوی تصاویر بینگ دارای تفاوتهای زیادی با گوگل و امثال آن است، به وسیله این ویژگی از حرکت در بین صفحات جستجوی تصاویر که در دیگر موتورهای جستجو مرسوم است بی نیاز می شوید . در نگاه اول عکس پس زمینه در صفحه اصلی جستجوی Bing توجه کاربران را به خود جلب میکند. این تصاویر بسیار کم حجم بوده و با سلیقه انتخاب میشوند به همین دلیل نقش بالایی در جذب کاربران به این موتور جستجو داشته اند. همین امر موجب شده تا بینگ را بعنوان رقیبی جدی برای موتور جستجوی گوگل بشناسیم.
موتورهای جستجوگر ملی
موتور جستجوی پارسی جو
پارسی جو موتور جستجوی بومی مستقل است که فاز مطالعاتی آن در زمینه موتورهای جستجو در سال ۱۳۸۰ شروع گردیده است. طراحی و پیاده سازی پارسیجو در مهر ۱۳۸۸ آغاز گردید و نسخه اولیه آن در ۲۸ اردیبهشت ۱۳۸۹ با پوشش یك میلیون صفحه ، روی وب قرار گرفت. هم اكنون نسخه 4 پارسیجو با پوشش پانصد ميليون صفحه روی وب قرار دارد.
پارسی جو یک موتور جستجوگر مستقل می باشد و ابر جستجوگر نیست و تمام مراحل خزش، نمایه سازی و رتبه بندی در سرور های پارسی جو و توسط الگوریتم های طراحی شده توسط گروه شرکت وب پردازان نوین پارسی جو، انجام می گیرد.
جستجو گر یوز
یوز یک موتور جستجوی وب ایرانی میباشد که طراحی و تولید آن در اواخر سال ۱۳۸۸ با حمایت وزارت ارتباطات و فناوری اطلاعات ایران آغاز شد. این جستجوگر در بهمن ۱۳۹۳ با حضور وزیر ارتباطات ایران افتتاح شد. در طراحی این موتور جستجو ، فراهم کردن بستری مطمئن برای جستجوهای اینترنتی، رفع نیازمندی ها به زبان فارسی ، تمرکز بر سرویس های محلی ، جلوگیری از هدر رفت سرمایه های ملی در اولویت قرار گرفته است.
یوز در پاسخ دهی به کاربران از هیچ موتور جستجوی دیگری استفاده نمیکند . یوز تاکنون توانسته است حدود یک میلیارد صفحه را پوشش دهد و احاطه گستردهای بر وب فارسی داشته باشد. یوز همچنین دارای خدمات جستجوی خبر، وبلاگ و عکس میباشد.
معاون برنامهریزی وزارت ارتباطات در مراسم رونمایی از موتور «یوز»، اعلام کرد که ساخت این جستجوگر ایرانی تاکنون هزینهای ۷ میلیارد تومانی را برای این وزارتخانه در بر داشته است. در این جا این سوال مطرح میشود که :
اساساً با وجود موتورهای جستجوگری نظیر گوگل و یاهو ، چه نیازی به امثال پارسیجو و یوز است؟
برای پاسخ به این سؤال کافیست نگاهی به تجربه دیگر کشورها در زمینه موتور جستجوی بومی داشته باشیم. هم اکنون، موتور جستجوی ( بایدو) در چین در حدود ۸۰ درصد پرسشهای مربوط به جستجوی کاربران را در این کشور پاسخ میدهد ، در حالیکه سهم گوگل در این کشور تنها ۱۸ درصد است. این آمار برای موتور جستجوی ( یاندکس ) در روسیه و موتور جستجوی ( ناوِر) در کره جنوبی چیزی نزدیک به ۷۰ درصد میباشد. حتی در کشورهای توسعه یافتهای نظیر ترکیه و جمهوري چك نیز موتورهای جستجوی بومی به سرعت مورد استقبال عمومی قرار گرفتهاند. دلایل عمده این استقبال شناخت بهتر زبان و فرهنگ کشور و دسترسی به خدمات متناسب با نیاز جامعه و از همه مهمتر، احساس غرور یک ملت در استفاده از فناوری داخلی میباشد.
نتیجه گیری
اگرچه هنوز کاربران ایران به منظور رفع نیازهای اطلاعاتی خود بلافاصله به سراغ جستوجوگرهایی مثل گوگل میروند، اما با این وجود انتظار می رود با تبلیغات و شفاف سازی ها در مورد نحوه عملکرد موتورهای جستجوگر ایرانی ، همانند دیگر کشورها آمار استفاده از جستجوگرهای داخلی بالاتر رود.
" فرهاد الیاسی " عضو کمیسیون نرمافزار سازمان نظام صنفی رایانهای تهران ، علت عدم استقبال از موتورهای جستوجوی ایرانی را نبود نگاه جامع در طراحی این موتورها دانست و گفت: این تصور در بین کاربران وجود دارد که موتورهای ایرانی مطالب را بهصورت فیلترشده قرار میدهند که نتیجه به دست آمده مورد خواست کاربر نیست و همین امر از دلایلی است که باعث میشود جستوجوگرهای ایرانی مورد استقبال قرار نگیرند .
در این میان نکته جالب آنکه اگرچه ایجاد موتور جستوجوهای مناسب ملی حتی در برنامه پنجم توسعه هم مورد توجه قرار گرفته و تاکنون نیز چندین جستوجوگر ایرانی طراحی شدهاند، اما به نظر میرسد سرمایهگذاری کافی برای حمایت هیچ یک از این سایتها به عمل نیامده و تلاش نشده است که حداقل یک موتور جستوجوی مناسب داخلی به کاربران شناسانده و جایگزین نمونههای خارجی شود. علاوه بر این کشوری مانند ترکیه نیز تا همین یکسال پیش- بیش از 36 موتور جستوجوی اختصاصی برای خود طراحی کرده و حداقل از نظر تعداد موتور جستوجوهای طراحی شده یکی از کشورهای پیشرو محسوب میشود.
البته باید به این نکته هم اشاره کرد که در کشور ما نیز طی سالهای گذشته چندین موتور جستوجوی مختلف راهاندازی شده، اما با این حال جستوجوگری که بتوان از آن به عنوان گزینهای قوی و پر استفاده نام برد وجود ندارد.
در پایان اگرچه معرفی کامل سایتهایی که به این منظور طراحی شدهاند کار چندان سادهای نیست، اما از میان جستوجوگرهایی که در داخل کشور فعال شدهاند، به غیر از پارسی جو و یوز میتوان به جسجو، سلام ، جاماسپ و ریسمون اشاره کرد .
مهمترین موتورهای جستجوی بومی
نام کشور
|
موتور جستجو
|
چین
|
Baidu.com
|
روسیه
|
Yandex.ru
|
هند
|
Guruji.com
|
ژاپن
|
goo.ne.jp
|
کره جنوبی
|
Daum.net
|
کره شمالی
|
Kwangmyong
|
اسپانیا
|
Abacho.es
|
آلمان
|
abacho.de
|
مکزیک
|
mexicoweb.com.mx
|
جمهوری چک
|
Seznam.cz
|
آفریقای جنوبی
|
ananzi.co.za
|
:: موضوعات مرتبط:
مطالب علمی - آموزشی ,
,
:: برچسبها:
موتور جستجو ,
گوگل ,
یاهو ,
پارسی جو ,
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0